机器学习 | 高级信息分析上新系列(其二)
生物标志物是某种疾病状态严重程度或存在的可测量指标,可指示疾病相关的分子变化,是临床中广泛用于诊断、疗效评估和预后预测的工具。
生物标志物依据其在疾病中的不同作用分为以下几类:诊断、预后、预测、药效、安全、监测等。评价生物标志物好坏的重要指标包括灵敏度、稳定性和准确性。
图1 生物标志物可用于疾病发展的所有阶段[1]
如何从蛋白质组和代谢组研究中
筛选生物标志物?
现阶段,高通量蛋白质组学和代谢组学技术为生物标志物的发现研究提供了有力的技术平台,但是临床转化仅依赖于选择少数几个蛋白或代谢物进行试验和验证,那么如何从海量的组学数据中筛选出高效且稳健的生物标志物呢?主要的技术方法有基于传统统计学的方法,以及基于机器学习的方法。
传统统计学方法包括单变量和多变量统计分析,它们往往基于一定假设条件的限制,可以说是假设驱动的标志物筛选,即通过统计检验来判断某个分子是不是与疾病变化显著相关,以此评估该分子是否能够作为潜在的候选生物标志物。
此类方法筛选生物标志物的局限性主要表现在两个方面:①筛选出来的特征分子数目依然很多;②这些特征或特征组合在疾病预测时准确性和稳定性较差,尤其是在后续的队列验证中很难保证良好的诊断能力。
机器学习作为一种数据驱动的技术方法,不基于任何假设直接从数据中发现分子间的内在规律,这可能有助于更好地理解疾病发生、发展的复杂机制。机器学习是精准医疗领域的一个重要工具,有助于选择最佳生物标志物组合(biomarker panel),构建出更加有效的诊断和预测模型,达到最好的临床应用效果。
近年来,机器学习受到越来越多研究者的青睐,现已被广泛应用于临床队列样本的研究中,特别是发现疾病相关的蛋白标志物和代谢标志物并构建基于表型组学数据的疾病诊断模型[1-5]。
为满足更多临床队列研究需求,华大基因特推出一站式、全智能机器学习高级信息分析服务,助力生物标志物高效筛选!
机器学习服务简介
自主研发了一套集成机器学习框架,用于自动化、智能化的蛋白、代谢标志物筛选。
分析内容包括五大部分:①定量数据预处理;②单变量和多变量方法筛选标志物;③集成机器学习标志物特征筛选;④模型评估与验证;⑤标志物组合特征分析。
服务优势
7个机器学习基模型(base model)可选;
集成多个不同模型特征选择的结果,筛选高效稳健的生物标志物组合;
多模型竞争方式智能化推选出最佳诊断或预测模型,一步到位;
丰富多样的候选标志物分析结果;
针对不同的临床应用场景和组学数据特点,可以定制化地训练机器学习模型,充分发挥模型优势,实现最优预测表现。
应用方向
可适用于精准医疗下的不同临床应用场景。
早筛:疾病风险预测;
诊断:癌症分型;
预后:预测生存概率;
治疗和药物研发:预测治疗效果、寻找药物反应靶点。
华大基因近期会推出一系列高级信息分析产品,如多组学关联分析等,敬请关注!
欲知更多详情,请联系华大科技当地销售代表↓↓↓
热线电话:400-706-6615
邮箱:info@genomics.cn
参考文献:
[1] Vivianne Landry. Diagnostic Accuracy of Liquid Biomarkers in Airway Diseases: Toward Point-of-Care Applications. Frontiers in Medicine. 2022 Jun 6;9:855250.
[2] Zhang X, Jonassen I, Goksøyr A. Machine Learning Approaches for Biomarker Discovery Using Gene Expression Data. Bioinformatics. Brisbane (AU): Exon Publications; 2021 Mar 20. Chapter 4.
[3] Ozge Karayel, et al., Matthias Mann. Proteome profiling of cerebrospinal fluid reveals biomarker candidates for Parkinson's disease. Cell Reports Medicine. 2022 Jun 21;3(6):100661. doi: 10.1016/j.xcrm.2022.100661.
[4] Vittorio Fortino, et al., Machine-learning–driven biomarker discovery for the discrimination between allergic and irritant contact dermatitis. PANS. 2020 Dec 29;117(52):33474-33485
[5] Polina Mamoshina, et al. Machine Learning on Human Muscle Transcriptomic Data for Biomarker Discovery and Tissue-Specific Drug Target Identification. Frontiers Genetics. 2018 Jul 12;9:242.
↓
向下滑动查看
近期热文
蛋白质组学 | 一分钟了解Olink超灵敏无偏靶向蛋白质组学研究解决方案!
空间代谢组学 | 质谱成像+代谢组学强强联合,定性、定量、定位信息一次搞定!
叮!有一份重要的DNBelab C系列单细胞测评报告,请查收!
听课赢好礼!6个经典角度揭秘测序技术如何助力精准医学基础研究
了解更多产品服务及资讯,关注我们!